获取异常事件告警_网络智能服务(NIS)-阿里云帮助中心

网络智能服务 NIS（Network Intelligence Service）事件中心提供主动告警能力，帮助您及时获知风险，查看可能受影响的资源，避免业务受损。

应用场景

NIS事件由阿里云定义，用于记录和通知云网络资源的信息，例如运维任务执行情况、资源是否出现异常、资源状态变化等。

通知风险和异常
如果发生了实例资源可用性或性能受损的事件，例如因实例超规格使用造成性能受损、因运营商链路丢包影响业务可用性、实例到期费用预警等，阿里云会将事件推送至NIS控制台的事件中心进行展示，建议您及时响应这些事件，避免因资源可用性或性能受损影响业务。
实现自动化运维
在NIS控制台展示的事件均定义了事件状态，方便区分相应系统运维任务的执行情况，而且事件产生及状态变化时会上报至云监控，方便您进一步根据自身需要搭建事件驱动的自动化运维体系。

使用限制

已停售的实例规格族不支持事件功能，更多信息，请参见各云服务的停售公告。

基本信息

事件类型

事件由阿里云定义，用于记录和通知云网络资源的信息。按照起因进行分类，事件可以分为：

类别	说明	举例事件
问题事件	已经造成业务受损的异常事件，并且7天内状态一直处于进行中的事件。	公网带宽规格超限导致丢包实例欠费导致停机
风险事件	可能造成业务受损的异常事件，并且7天内状态一直处于进行中的事件。	物理链路丢包对业务的影响风险带宽流量用量突增突减的故障风险实例欠费即将停机风险

事件等级

按照对实例正常运行的影响程度进行划分，事件分为以下几个等级：

严重：影响重大，需要尽快处理，否则可能导致实例无法使用。
警告：有一定影响，需要您在影响持续期间加以关注，或者选择合适时间处理。
信息：您自行选择是否关注即可。

说明

关于事件Code、名称、说明与处理建议等。具体信息，请参见事件汇总。

事件汇总

汇总NIS支持的事件，并为各事件提供处理建议。

说明

问题事件不支持监控性能共享型CLB实例。

问题事件

事件code	事件名称	事件等级	云监控事件名称	事件说明和影响	告警规则	用户侧处理建议
公网实例
problem-internetBandwidthOverlimit	公网带宽超限丢包	严重	实例带宽超限丢包	公网实例的实际带宽流量超出了当前带宽规格，出现丢包情况。其中公网实例指与公网流量相关的实例，如：弹性公网IP实例、带宽包实例或传统型负载均衡CLB实例等。	严重：最近10分钟高频触发带宽超限，产生丢包。	建议扩容，提升带宽峰值。
公网NAT网关
problem-nat-sessionOverLimit	NAT会话超限丢弃连接	严重	NAT会话超限丢弃连接	公网NAT网关会话数量超出规格，出现新建会话失败情况，且丢包>100 packet/s。	严重：最近10分钟高频触发并发会话数超限，且丢包>100 packet/s。	建议升配或拆分为多个公网NAT网关实例。具体操作，请参见管理NAT网关配额和创建和管理公网NAT网关实例。
problem-nat-sessionNewOverLimit	NAT新建会话超限丢弃连接	严重	NAT新建会话超限丢弃连接	公网NAT网关新建会话速率超出规格，出现新建会话失败情况，且丢包>100 packet/s。	严重：最近10分钟高频触发新建会话数超限，且丢包>100 packet/s。	建议升配或拆分为多个公网NAT网关实例。具体操作，请参见管理NAT网关配额和创建和管理公网NAT网关实例。
problem-nat-portAllocationError	NAT源端口分配失败	严重	NAT源端口分配失败	公网NAT网关实例配置的EIP个数过少，出现源端口分配失败情况，且丢包>10 packet/s。说明该事件暂不支持设置订阅。	严重：最近10分钟高频触发源端口分配失败现象，且丢包>10 packet/s。	建议增加绑定到公网NAT网关实例的EIP。具体操作，请参见创建和管理公网NAT网关实例。
problem-nat-datapathUnavailable	NAT数据链路不可用	严重	NAT数据链路不可用	NAT数据链路不可用。过去10分钟，您的NAT网关可用性为0%，即所有流量受影响，您的NAT 网关资源无法正常工作，可能存在导致不可用的平台事件，阿里云工程师正在紧急恢复中。	严重：最近10分钟NAT网关可用性为0%。	如果您已经通过多NAT网关部署为业务获得高可用性，建议进行NAT网关切换，具体操作，请参见通过多NAT网关部署为业务获得高可用性；否则，建议您联系阿里工程师获取最新恢复进展。
problem-nat-datapathDegraded	NAT数据链路降级	严重	NAT数据链路降级	NAT数据链路降级。过去10分钟，您的NAT网关可用性已低于80%，即20%以上流量受影响，您的NAT 网关资源无法正常工作，可能存在导致数据包丢弃的平台事件，阿里云工程师正在紧急恢复中。	严重：最近10分钟NAT网关可用性＜80%，产生丢包。
传统型负载均衡CLB（Classic Load Balancer）
problem-clb-connectionOverLimit	CLB会话超限新建连接丢失	严重	CLB会话超限新建连接丢失	CLB新建连接或并发连接数超出规格，出现新建会话失败情况，丢弃连接速率较高。	严重：最近10分钟高频触发并发会话数超限，产生丢包。	建议升配或更改为网络型负载均衡 NLB（Network Load Balancer）或应用型负载均衡 ALB（Application Load Balancer）实例。具体操作，请参见管理CLB配额。NLB和ALB的产品介绍，请参见什么是网络型负载均衡NLB、什么是应用型负载均衡ALB。
problem-clb-bandwidthOverLimit	CLB带宽规格超限丢包	严重	CLB带宽规格超限丢包	CLB实际流量超出带宽规格，出现丢包情况。	严重：最近10分钟高频触发带宽规格超限，且丢包量＞100 bps。	建议扩容。具体操作，请参见调整性能保障型实例的规格。
problem-clb-connectionFail	CLB失败连接数骤增	严重	CLB失败连接数骤增	CLB因为（后端服务器规格超限/负载过高/业务异常），出现失败连接突增情况。	严重：最近10分钟CLB新建连接失败数骤增，满足以下全部条件后触发告警：条件一：失败连接数＞100/s；条件二：失败连接数相较上个10分钟窗口环比上升30%；条件三：通过AI学习历史失败连接数平稳基线范围，10分钟里连续存在突破智能基线上限＞30%。	视原因建议（升配后端服务器规格/升配CLB规格/检查后端业务状态）。具体操作，请参见管理CLB配额，CLB实例诊断。
NLB
problem-nlb-connectionFail	NLB失败连接数骤增	严重	NLB失败连接数骤增	NLB实例的VIP（Virtual IP address）已经连续十分钟出现失败连接数突增现象，可能存在以下原因：网络链路抖动。后端服务器性能不足。	严重：NLB实例失败连接数同时满足以下条件触发告警。条件一：在持续610秒的监控窗口内，连续3分钟失败连接数突破智能预测基线上边界比例>100%；条件二：在持续610秒的监控窗口内，连续7分钟失败连接数环比上个小时上升≥50%；条件三：在持续610秒的监控窗口内，连续8分钟失败连接数≥1000。	建议检查后端服务器水位或业务状态是否异常。具体操作，请参见NLB实例诊断。
problem-nlb-newConnectionSurge	NLB新建连接丢弃	严重	NLB新建连接丢弃	NLB实例的VIP因为新建连接数骤增，连续出现（毫秒/秒级）新建连接请求丢弃现象。	严重：NLB实例的连接数同时满足以下条件触发告警。条件一：VIP每秒丢弃连接数，在10分钟里超过8个点＞0；条件二：VIP每秒新建连接数，在10分钟里超过8个点＜200000。	建议拆分多个NLB实例，将流量分配到不同的NLB实例或联系客户经理单独报备。
problem-nlb-newConnectionOverLimit	NLB新建连接超限	严重	NLB新建连接超限	NLB实例的VIP新建连接已经超出NLB单个VIP自动弹性上限，连续出现新建连接请求丢弃现象。	严重：NLB实例的连接数同时满足以下条件触发告警。条件一：VIP每秒丢弃连接数，在10分钟里超过8个点＞0；条件二：VIP每秒新建连接数，在10分钟里超过8个点≥200000。
problem-nlb-concurrentConnectionOverLimit	NLB并发连接超限	严重	NLB并发连接超限	NLB实例的VIP并发连接数已经超出NLB单个VIP自动弹性上限，连续出现新建连接请求丢弃现象。	严重：NLB实例的连接数同时满足以下条件触发告警。条件一：VIP每秒丢弃连接数，在10分钟里超过8个点＞0；条件二：VIP最大并发连接数，在10分钟里超过8个点＞5000000。
ALB
problem-alb-intranetBandwidthOverLimit	ALB私网带宽超限产生丢包	严重	ALB私网带宽超限产生丢包	ALB实例的VIP地址上出方向或入方向带宽达到上限，ALB域名解析的单一VIP有带宽限额。	严重：ALB实例丢弃流量，在10分钟里超过8个点>100 bps。	建议为ALB实例设置CNAME域名解析。具体操作，请参见为ALB添加CNAME记录。
problem-alb-sessionOverLimit	ALB会话超限导致新建连接丢失	严重	ALB会话超限导致新建连接丢失	ALB实例的VIP地址上新建连接或并发连接数超出上限，出现新建会话失败情况。ALB域名解析的单一VIP有新建连接数限额。	严重：ALB实例每秒丢弃连接数，在10分钟里超过8个点＞0。
problem-alb-qpsOverLimit	ALB QPS超限产生503错误码	严重	ALB QPS超限产生503错误码	ALB实例的VIP地址上最大每秒请求数（QPS）达到VIP上限，ALB域名解析的单一VIP有QPS限额。	严重：ALB实例每秒丢弃请求数，在10分钟里超过8个点＞200 qps，且持续10分钟环比7分钟之前，实例每秒丢弃请求数环比上升≥30%。
云企业网CEN（Cloud Enterprise Network）
problem-cen-routeOverLimit	CEN路由数量超限	严重	CEN路由数量超限	CEN路由配额超限，可能引起网络问题。	严重：CEN路由配额超限，引起网络问题。	建议升级转发路由器TR（Transit Router）具体操作，请参见升级基础版转发路由器。
TR
problem-cen-vpcAttachBandwidthOverLimit	VPC连接带宽超限丢包	严重	VPC连接带宽超限丢包	CEN转发路由器实际流量超出带宽规格，出现丢包情况。	严重：入方向丢包率，在10分钟里超过5个点＞0。	建议扩容，提升带宽峰值。具体操作，请参见管理云企业网配额。
problem-cen-peerAttachBandwidthOverLimit	跨域连接带宽超限丢包	严重	跨域连接带宽超限丢包	CEN转发路由器实际流量超出带宽规格，出现丢包情况。	严重：TR实例实际流量同时满足以下条件触发告警。条件一：流出带宽峰值利用率，在10分钟里超过8个点≥90%。条件二：出方向限速丢包速率，在10分钟里超过8个点＞100 pps。	建议扩容，提升带宽峰值。具体操作，请参见管理云企业网配额。

风险事件

事件code	事件名称	事件等级	云监控事件名称	事件说明和影响	告警规则	用户侧处理建议
公网实例
risk-internetPacketLoss	公网链路丢包风险	警告	公网链路丢包风险	探测发现阿里云 {Region地域} 到{国家} - {地区} - {运营商}的物理链路发生了丢包告警，当前账号在此链路的流量可能存在抖动风险。	严重：若满足以下任一条件，则触发告警。条件一：探测到地区级的运营商链路丢包率>50%；条件二：探测到全国性的运营商链路丢包，且当前账号在此链路的流量最近10分钟平均带宽≥0.05 Mbps。说明地区级：目的区域为{国家}-{地区}-{运营商}的物理链路。全国性：目的区域为{国家}-{运营商}的物理链路。警告：公网链路丢包率＜50%，且最近10分钟平均带宽>0.5 Mbps。	请关注这条链路上的实例带宽是否符合实际业务要求（可参考流量分析中五元组数据），若有异常可考虑将关键业务迁移到其他地域；若无异常可忽略此告警。
risk-internetBandwidthOverlimit	公网带宽超限丢包风险	警告	公网带宽超限丢包风险	根据历史数据统计，在未来某一时刻实例实际带宽流量超出当前规格的发生概率大于90%。	警告：某一时刻流量超出规格的概率>90%，产生丢包。	建议关注，若出现超规格情况建议扩容。
VPN 网关
risk-vpn-bpsOverLimit	VPN带宽超限风险	警告	VPN带宽超限风险	VPN实例转发流量最近十分钟带宽利用率有3次超过90%。	警告：带宽利用率，在10分钟里超过3个点＞90%。	警告：带宽利用率，在10分钟里超过8个点高于30%
risk-vpn-bgpRouteLimit	BGP动态路由数量超限风险	警告	BGP动态路由数量超限风险	VPN实例最近十分钟学习到的BGP动态路由数量已超过实例BGP路由配额的90%。	警告：路由利用率，在10分钟里超过1个点＞90%。	建议关注，若出现超规格情况建议您可以根据实际网络规划在对端VPN网关进行网段聚合。
高速通道
risk-ec-physicalConnectionFail	专线端口/链路故障	警告	专线端口/链路故障	运营商物理专线或设备端口故障导致业务中断。	警告：监控分钟级的VBR实例IDC到VPC方向流入速率，若同时满足以下条件，则触发告警。条件一：3≤专线端口下跌次数<20；条件二：专线端口下跌连续2个时间点以上；条件三：非全量专线端口下跌状态。	建议您联系您的商务经理沟通处理。
risk-ec-bgpRouterFail	BGP连接故障	警告	BGP连接故障	物理专线网络连通性故障或BGP配置异常，导致BGP连接故障和路由丢失。	警告：BGP连接状态从已连接变成其他状态，则触发告警。	建议您联系您的商务经理沟通处理。
risk-ec-inTrafficDroppedToZero	VBR入方向流量陡降	警告	VBR入方向流量陡降	运营商物理专线或设备端口故障导致VBR入方向流量陡降。	警告：监控分钟级的VBR实例IDC到VPC方向流入速率，若同时满足以下条件，则触发告警。条件一：持续3分钟，每分钟环比前7分钟的平均速率下跌≥99%；条件二：持续3分钟，每分钟环比前7分钟的平均速率下跌绝对值≥1 Mbps；条件三：持续3分钟，每分钟环比前15、30和60分钟的平均速率下跌绝对值≥0.5 Mbps；条件四（智能基线告警）：通过学习VBR实例的历史流入速率周期性规律，预测下一周期流入速率稳定区间，若在周期到达时，3分钟内持续2分钟突破预测区间下限≥99%，则判定为异常下跌。	请确认是否是正常业务流量行为，或是否存在健康检查切换，若存在业务受损，请联系您的商务经理处理。
risk-ec-outTrafficDroppedToZero	VBR出方向流量陡降	警告	VBR出方向流量陡降	运营商物理专线或设备端口故障导致VBR出方向流量陡降。	警告：监控分钟级的VBR实例VPC到IDC方向流出速率，若同时满足以下条件，则触发告警。条件一：持续3分钟，每分钟环比前7分钟的平均速率下跌≥99%；条件二：持续3分钟，每分钟环比前7分钟的平均速率下跌绝对值≥1 Mbps；条件三：持续3分钟，每分钟环比前15、30和60分钟的平均速率下跌绝对值≥0.5 Mbps；条件四（智能基线告警）：通过学习VBR实例的历史流出速率周期性规律，预测下一周期流出速率稳定区间，若在周期到达时，3分钟内持续2分钟突破预测区间下限≥99%，则判定为异常下跌。	请确认是否是正常业务流量行为，或是否存在健康检查切换，若存在业务受损，请联系您的商务经理处理。

操作导航

操作	说明及相关文档
查看事件	您可以通过以下方式查看事件：在NIS控制台查看，请参见查看NIS异常事件。在云监控控制台查看，请参见查看事件。
订阅事件	您可以通过云监控自主订阅事件，订阅后，将以电话、短信、邮件等方式及时通知您事件的发生与进展，请参见设置NIS事件订阅。
解决事件	查看事件之后，您可以根据相应的建议解决问题，请参见事件汇总。

上一篇: 概览下一篇: 查看NIS异常事件